Using collocation segmentation to extract translation units in a phrase-based statistical machine translation system Implementación de una segmentación estad́ıstica complementaria para extraer unidades de traducción en un sistema de traducción estad́ıstico basado en frases
نویسندگان
چکیده
This report evaluates the impact of using a novel collocation segmentation method for phrase extraction in the standard phrase-based statistical machine translation approach. The collocation segmentation technique is implemented simultaneously in the source and target side. The resulting collocation segmentation is used to extract translation units. Experiments are reported in the Spanish-toEnglish EuroParl task and promising results are achieved in translation quality.
منابع مشابه
Integración de optimización evolutiva para el reconocimiento de emociones en voz
Resumen. En este art́ıculo se presenta el desarrollo de un sistema de reconocimiento de emociones basado en la voz. Se consideraron las siguientes emociones básicas: Enojo, Felicidad, Neutro y Tristeza. Para este propósito una base de datos de voz emocional fue creada con ocho usuarios Mexicanos con 640 frases (8 usuarios × 4 emociones × 20 frases por emoción). Los Modelos Ocultos de Markov (Hid...
متن کاملEstudio Bidireccional de un Sistema de RI Multilingüe Basado en Traducción de n-Gramas
Resumen Continuando nuestra investigación sobre el empleo de ngramas de caracteres como unidad de traducción en sistemas de RI Multilingüe, este art́ıculo analiza el comportamiento de nuestra solución en direcciones inversas de traducción a partir de sendos experimentos paralelos con consultas en inglés sobre textos en español y viceversa. Lo positivo de los resultados corrobora la validez de nu...
متن کاملSistema de Suscripción basado en XML para noticias digitales
Resumen. En este trabajo se plantea la problemática del seguimiento de un gran flujo de información entrante en una base documental, y la notificación de las novedades significativas a los usuarios de acuerdo a los perfiles definidos en sus suscripciones. Se propone un sistema de suscripción que utiliza un nuevo lenguaje basado en XML, que permite especificar consultas considerando la estructur...
متن کاملMedidas de Complejidad Cuantitativas para Sistemas Expertos Basados en Reglas
La evaluación de un Sistema Basado en Conocimiento es una fase del ciclo de desarrollo en este paradigma que comúnmente busca que el sistema tenga una sintaxis correcta, una semántica válida y que el grado de usabilidad y utilidad sea alto. Sin embargo, en esta etapa no se hace una valoración de la organización que tiene la Base de Conocimiento, lo cual pudiera repercutir en la eficiencia de la...
متن کاملDealing with Input Noise in Statistical Machine Translation
Misspelled words have a direct impact on the final quality obtained by Statistical Machine Translation (SMT) systems as the input becomes noisy and unpredictable. This paper presents some improvement strategies for translating real-life noisy input. The proposed strategies are based on a preprocessing step consisting in a character-based translator (MT) from noisy into cleaned text. The use of ...
متن کامل